6.2 시각과 언어의 연결: 멀티모달 임베딩 (Multimodal Embeddings)
- 6.2 시각과 언어의 연결: 멀티모달 임베딩 (Multimodal Embeddings)
- 6.2.1 CLIP (Contrastive Language-Image Pre-training)의 원리: 이미지와 텍스트를 동일한 잠재 공간(Latent Space)에 매핑하기.
- 6.2.2 Contrastive Learning과 데이터 규모의 힘: 웹 스케일 데이터 학습이 가져온 일반화 성능과 강건성(Robustness).
- 6.2.3 로봇을 위한 경량화 및 미세 조정(Fine-tuning): 실시간 추론을 위한 Distillation 기법과 도메인 적응 전략.